08 振りの理解を助けるためのダンス動画の自動分割 - WISS2022

08 振りの理解を助けるためのダンス動画の自動分割

https://scrapbox.io/files/6399f1ddca47d2001d357862.png

https://scrapbox.io/files/6399f33872c36e001d8c0e2f.png

遠藤輝貴(東大)，土田修平(神戸大)，五十嵐健夫(東大)

要旨：

本研究ではダンス動画の振りを短時間の動きへと自動で分割する手法を提案する．提案手法では動画中のダンサーのポーズ情報から視覚特徴量を，動画中の音楽から聴覚特徴量をそれぞれ計算し，これらをTemporal Convolutional Network (TCN) に入力して，出力された分割可能性のピークを検出することで動画の分割位置を求める．本論文では提案手法の詳細や実験結果と，自動分割を応用したダンス学習支援システムについて述べる．

採録時コメント：

ダンスの振りを覚えることを支援するユーザインタフェースを実現するために、視覚特徴と聴覚特徴を用いてダンス動作を自動分割する手法を提案しました。アノテーションインタフェースと応用インタフェースの2種類を実装されており、実用性高く動作していると判断されました。全査読者のコメントを参考に、論文の質をさらに高めていただけることを期待します。当日の発表を楽しみにしております。

参加者メモ・コメント：

ダンスは動画を分割すると練習しやすいが、その分割が難しい。それを自動化する研究

関連研究

ルールベースの研究はあった

提案手法

視覚特徴量

キーポイントの速度を特徴量にする

聴覚特徴量

STFTし、メルスペクトログラムにする

メルスペクトログラムをCNNで畳み込む

16次元

Temporal Convolutional Network

時系列データの一次元畳み込み

TCNによってダンス動画の「分割可能性」を計算する

学習データ

AIST Dance Video Database (AIST Dance DB) https://aistdancedb.ongaaccel.jp/

発表者が50時間踊った手作業で分割した動画

動画へのアノテーション

アノテーションツールを自作している

評価実験

視覚特徴量のみ

聴覚特徴量のみ

両方

これが最大の性能となった

実験結果

聴覚特徴量のみだと分割し過ぎがち

視覚特徴量と組み合わせることで分割しすぎないようになった

登場回数の多いパターンはよく分割できた

フリーダンスの際は、誤って分割されてしまう

応用例

ダンス学習支援アプリケーション

分割された単位で繰り返し再生できる

分割位置の前後でちょっとだけはみ出すようにしてある

課題と発展

学習データは発表者が作った

他のダンス経験者に動画を分割してもらう

さらにパーソナライズ・カスタマイズ可能にしたい

microlearning

振り付け師も分割を考えて振り付けを考えるわけではないので、最初からそもそも分割された「一振り」（？）みたいなものは存在しないんだなあYudai Nishiyama.icon

なので、任意に適当な分割を提案することができる

振り付けの作成者がその振り付けを分割するのはある程度容易にできそうですが、初見のダンスをうまく分割するのは経験者でも厳しい（と思います）shuheitsuchida.icon

覚えやすい分割と意味的に分かれてる分割との差とか気になる

そもそも「意味的に分かれてる分割」なるものが存在するのかどうかもよくわからないけどくらもといたる.icon

太極拳みたいに、明確なピークや拍が存在しない動作に対しても使えるんでしょうか？（現代ダンス限定？）

多分音楽は存在する踊りというのは前提としてありそうで、もっといえば比較的old schoolかnew schoolのジャンルに限定する前提じゃないかと思いますねnarumi.icon

「技」があるなら、それを検出するのはありえそう

教師データとして与える分割点の可能性がある点ってどんなのでしょうか？聴覚面でいえば音楽のパートが変わるとかでしょうか

例えば技の単位であったり、流れるような一連の動きが静止した時などで分割しています。基本的にダンサーの動きに注目して分割していますが、振りが音楽に合わせて作られているため、結果的に音楽の小節区切りなどで分割されることが多かったです。遠藤輝貴.icon

いかにもデータセットを分けてますという見え方だからまだ有用性が伝わっていないかもしれないけど、実際にはバトル動画とかを分割したりするとどこから切り替わってるか分かって便利そう（ブレイクとかの場合、普通は切り替わりの部分がわからないことが多い気がする）narumi.icon

+1yuiseki.icon

ダンスビデオを入力する→分割→動作を文書化してキャプション付加（例：両手を振り上げる）、で、ダンス教本の自動作成ができる？

TCNに入力

Temporary Convolutional (Neural?) Network

今日はCNNではなかった！CNNの一種？なのかなYudai Nishiyama.icon

昨日もちらっと誰かが言及していた気がしますyuiseki.icon

実験結果／正しい例

典型的な振り付けには名前がついているので、分割の正しさを検討できるんですねYudai Nishiyama.icon

チャールストンとか

誤った例で紹介されているダンスジャンルはstreet jazzとballet jazzなのですが、他のストリートダンスのジャンルと比較するとコンテンポラリーダンスのような、ビートを無視した動作が多いので、うまくいかなかったのかなと。他の推定結果はわりと納得。shuheitsuchida.icon

逆に言えばビートを無視するような動きに適した音楽ジャンルっていうのはあるんでしょうか（ありそう）　そうだとすると楽曲入れた時点で「これは分割しにくいで」「割とフリースタイルな動きになるで」みたいな判断までできそう

ジャズやコンテンポラリーダンスは確かに人目に見ても難しそうですね…Yudai Nishiyama.icon

ストリートダンスがけっこう分節しているというのは（語感に反していて）面白いです

応用例／ダンス学習支援アプリケーション

これ気になってました

発展・課題

分割の仕方が個人によって違う，というのは今回の分割手法で分割できる範囲なのでしょうか．もし足りない要素があれば知りたいです！ShioMiyafuji.icon

多くの人からダンス分割のデータを集めれば、「ここでは10人中3人が分割しているので分割可能性は0.3」「ここでは全員が分割しているので分割可能性は1.0」のように学習データが作成でき、アプリケーションのスライダーでピーク検出の閾値を変えることで分割の細かさをある程度調節できるようになると思います。遠藤輝貴.icon

さらに個人の好みに合わせてカスタマイズする場合はHuman-in-the-Loopの手法などを使うと良いのかなと思っています。遠藤輝貴.icon

参考: Human-in-the-Loop 型適応によるインタラクティブな音楽的拍節解析

分割した部分Aと部分Bがこのくらい近い、みたいな検出はできるのでしょうか？1曲の中での繰り返しとか自動検出できたら、ここはもうダンス覚えたから、あとここを覚えれば良い、というのがわかりやすくていいな、と思いました。yuki_igarashi.icon

まだ試してはいませんが、分割されたセグメント同士でキーポイント位置を使って類似度計算をすれば、繰り返しの検出もできるかもしれないです！遠藤輝貴.icon

質疑応答

振りの生成にも使えそう

参考: DanceReProducer：既存のダンス動画の再利用により音楽に合った動画を作成できるシステム.

発表時に音がなかったので、音が聞きたい

歌詞でも分割できるのでは

デモ発表があります！

Next: 09 リアルタイムフィードバックとスコアリングを導入した顕微鏡縫合術訓練